1
Au-delà de la date limite d'entraînement : pourquoi les LLM ont besoin de connaissances externes
AI025Lesson 1: Foundations of RAG and Knowledge Base Construction
00:00

Un grand modèle linguistique peut produire un langage avec fluidité, mais la fluidité n'est pas équivalente à la fiabilité factuelle. La limitation fondamentale d'un LLM réside dans sa dépendance envers mémoire paramétrique—des connaissances figées dans le temps au moment où l'entraînement s'est terminé, appelé date limite d'entraînement.

Mémoire paramétriquePoids gelésDate limite : déc. 2023Risque de hallucinationsArchitecture RAGPreuves dynamiquesEn temps réel / PrivéAncrage

Pourquoi les LLM échouent lorsqu'ils sont isolés

Le RAG existe parce que de nombreuses questions pratiques dépendent d'informations qui sont privées, récentes, versionnées, spécifiques au domaine, ou auditables. Sans connaissance externe, le modèle souffre de :

  • Limitation temporelle: Incapacité à connaître les événements survenus après l'entraînement.
  • Limitation d'accès: Aucune visibilité sur les « données sombres » (documents privés d'entreprise).
  • Limitation de traçabilité: Absence d'une piste auditable pour la responsabilité professionnelle.
Le paradigme du livre ouvert
Plutôt que de forcer le modèle à « se souvenir » de tout par un entraînement coûteux, nous modifions l'architecture pour récupérer d'abord des preuves spécifiques à partir d'un corpus externe, permettant au LLM de répondre en ayant ces preuves à l'esprit. Cela procure confiance fondée sur des preuves plutôt que de confiance sans preuve.